grpo

大模型开始打王者荣耀了

腾讯最新提出的Think-In-Games (TiG) 框架,直接把大模型丢进王者荣耀里训练。它不仅能实时理解盘面信息(英雄、发育、兵线、防御塔、资源、视野等),还能打出像人类玩家一样的操作。

模型 王者荣耀 姜子牙 grpo tig 2025-09-02 12:28  5

强化学习如何帮助大语言模型实现自我进化

大型语言模型(LLMs)已经在代码生成领域取得了显著进步,但生成的代码虽然功能正确,却往往存在效率低下的问题。这一研究缺口正是由南洋理工大学、新加坡国立大学、香港大学、西安交通大学和字节跳动的联合研究团队着手解决的。在最近发表的论文《Afterburner:

模型 语言 dpo venus grpo 2025-06-04 16:11  13

SFT在帮倒忙?新研究:直接进行强化学习

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人

模态 研究 rl sft grpo 2025-06-02 02:57  14

泛化性暴涨47%!首个意图检测奖励范式,AI工具爆炸时代意图识别

随着大模型(LLMs)的快速发展和可集成工具的爆炸增长,AI 智能助手在日常生活中可提供的便利越来越多,不仅包括传统任务型对话中订机票、查询天气等助理能力,还增加了无以计数的 AI 能力,如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意

范式 数据集 跨语言 泛化 grpo 2025-05-17 02:08  15